跨模式时尚图像合成已成为一代域中最有前途的方向之一,因为巨大的未开发的潜力融合了多种方式和广泛的时尚图像应用。为了促进准确的生成,跨模式合成方法通常依赖于对比的语言图像预训练(剪辑)来对齐文本和服装信息。在这项工作中,我们认为,简单地对齐纹理和服装信息不足以捕获视觉信息的语义,因此提出了maskClip。 MaskClip将服装分解为语义部分,以确保视觉和文本信息之间的细粒度和语义准确对齐。在MaskClip上,我们建议Armani,这是一位统一的跨模式时装设计师,具有零件级的服装文本对齐。 Armani在第一阶段将图像分散成统一令牌,并使用变压器在第二阶段的控制信号的标记中使用变压器为真实图像的图像令牌进行建模。与同样依赖两阶段范式的先前方法相反,Armani将文本令牌引入了代码簿中,使该模型可以利用细粒语义信息来生成更真实的图像。此外,通过引入跨模式变压器,Armani具有通用性,可以从各种控制信号(例如纯文本,草图图像和部分图像)中完成图像合成。在我们新收集的跨模式时尚数据集上进行的广泛实验表明,Armani在不同的合成任务中生成了光真实的图像,并且优于现有的最先进的跨模式图像综合方法。 github.com/harvey594/armani。
translated by 谷歌翻译
基于图像的虚拟试验是以人为中心的现实潜力,是以人为中心的图像生成的最有希望的应用之一。在这项工作中,我们迈出了一步,探索多功能的虚拟尝试解决方案,我们认为这应该具有三个主要属性,即,它们应支持无监督的培训,任意服装类别和可控的服装编辑。为此,我们提出了一个特征性的端到端网络,即用空间自适应的斑点适应性GAN ++(Pasta-gan ++),以实现用于高分辨率不合规的虚拟试验的多功能系统。具体而言,我们的意大利面++由一个创新的贴布贴片的拆卸模块组成,可以将完整的服装切换为归一化贴剂,该贴片能够保留服装样式信息,同时消除服装空间信息,从而减轻在未受监督训练期间过度适应的问题。此外,面食++引入了基于贴片的服装表示和一个贴片引导的解析合成块,使其可以处理任意服装类别并支持本地服装编辑。最后,为了获得具有逼真的纹理细节的尝试结果,面食gan ++结合了一种新型的空间自适应残留模块,以将粗翘曲的服装功能注入发电机。对我们新收集的未配对的虚拟试验(UPT)数据集进行了广泛的实验,证明了面食gan ++比现有SOTA的优越性及其可控服装编辑的能力。
translated by 谷歌翻译
CT肝图像的基于内容的图像检索(CBIR)的深度基于学习的方法是一个积极的研究领域,但受到了一些关键局限性。首先,它们非常依赖标签的数据,这可能是具有挑战性的,而且获取成本很高。其次,它们缺乏透明度和解释性,这限制了深CBIR系统的可信度。我们通过(1)提出一个自制的学习框架来解决这些局限性,该框架将领域知识纳入培训过程中,以及(2)在CT肝图像的CBIR背景下提供首次表示学习解释性分析。结果表明,与几个指标的标准自我监督方法相比,性能的提高,并且在跨数据集的概括方面得到了改善。此外,我们在CBIR的背景下进行了首次表示学习性分析,该分析揭示了对特征提取过程的新见解。最后,我们通过盘问CBIR进行了一个案例研究,该案例证明了我们提出的框架的可用性。我们认为,我们提出的框架可以在创建可信赖的深层CBIR系统中发挥至关重要的作用,这些系统可以成功利用未标记的数据。
translated by 谷歌翻译
使用分散数据进行联合培训是一个有希望的新兴研究方向,可以减轻医疗领域的数据稀缺性。但是,与在一般对象识别任务中常见的大规模完全标记的数据相反,由于高注释成本,本地医疗数据集更有可能仅具有对一类兴趣类别的图像进行注释。在本文中,我们考虑了一个实用但不足的问题,在该问题中,代表性不足的课程只有很少的标签实例可用,并且仅存在于联合系统的一些客户中。我们表明,标准联合学习方法无法学习具有极端阶级失衡的强大多标签分类器,并通过提出一个新颖的联合学习框架FedFew来解决它。 FedFew由三个阶段组成,第一阶段利用联盟的自我监督学习学习课堂不可知的表示。在第二阶段,分散的部分标记数据被利用以学习基于能量的多标签分类器,用于公共类别。最后,根据能量检测到代表性不足的类别,并提出了基于原型的最近邻居模型以进行几次匹配。我们评估了FedFew在多标签胸部疾病分类任务上,并证明它的表现优于联合基准的大幅度。
translated by 谷歌翻译
最近集成了多源胸X射线数据集以改进自动诊断的趋势提出了模型学会利用源特定的相关性以通过识别图像的源域而不是医学病理来提高性能。我们假设这种效果由源区,即对应于源的疾病的患病率来强制执行并利用标记 - 不平衡。因此,在这项工作中,我们彻底研究了Lable-angalance对多源训练的影响,以便在广泛使用的Chestx-ray14和Chexpert数据集上进行肺炎检测任务。结果强调并强调了使用更忠实和透明的自解释模型进行自动诊断的重要性,从而实现了对杂志学习的固有检测。他们进一步说明了在确保标签平衡的源域数据集时可以显着降低学习虚假相关的这种不希望的效果。
translated by 谷歌翻译
尽管通过自我监督的代表学习的重要改进导致了从未标记数据学习时,但不存在任何方法,以解释影响学习的代表性的东西。我们通过拟议的方法来解决这一需求,放松,这是一种基于归因的归因的解释的方法。我们的方法还可以在其解释中模拟不确定性,这对于产生值得信赖的解释至关重要。放松通过测量输入和屏蔽版本之间的表示空间中的相似性来解释表示,提供直观的解释并显着优于基于梯度的基线。我们提供了对使用监督和无监督学习培训的特征提取器的新颖分析,提供了对不同学习策略的见解。最后,我们说明了在多视图聚类中放松的可用性,并强调结合不确定性对于提供低复杂性解释是必不可少的,这对解释表示来说至关重要。
translated by 谷歌翻译
基于图像的虚拟试图是由于其巨大的真实潜力,以人为本的图像生成最有希望的应用之一。然而,由于大多数预先接近店内服装到目标人物,他们需要对成对的训练数据集进行费力和限制性的结构,严重限制了它们的可扩展性。虽然最近的一些作品试图直接从一个人转移服装,但减轻了收集配对数据集的需要,它们的表现受缺乏配对(监督)信息影响。特别地,衣服的解开样式和空间信息成为一个挑战,通过需要辅助数据或广泛的在线优化程序来解决任何方法,从而仍抑制其可扩展性。实现A \ EMPH {可扩展}虚拟试样系统,可以以无监督的方式在源和目标人物之间传输任意服装,因此我们提出了一种纹理保留的端到端网络,该包装空间 - 适应甘(意大利面),促进了现实世界的未配对虚拟试验。具体而言,要解开每位服装的风格和空间信息,意大利面甘包括一个创新的补丁路由解剖模块,用于成功挡住衣服纹理和形状特性。由源人关键点引导,修补程序路由的解剖学模块首先将衣服脱发到标准化的贴片中,从而消除了衣服的固有空间信息,然后将归一化贴片重建到符合目标人员姿势的翘曲衣服。鉴于翘曲的衣服,Pasta-GaN进一步推出了一种新型空间适应性的残余块,指导发电机合成更现实的服装细节。
translated by 谷歌翻译
多模态数据在遥感(RS)中变得容易获得,并且可以提供有关地球表面的互补信息。因此,多模态信息的有效融合对于卢比的各种应用是重要的,而且由于域差异,噪音和冗余,也是非常具有挑战性的。缺乏有效和可扩展的融合技术,用于遍布多种模式编码器和完全利用互补信息。为此,我们提出了一种基于新型金字塔注意融合(PAF)模块和门控融合单元(GFU)的多模态遥感数据的新型多模态网络(Multimodnet)。 PAF模块旨在有效地从每个模态中获得丰富的细粒度上下文表示,具有内置的交叉级别和巧克力关注融合机制,GFU模块利用了新颖的门控机制,用于早期合并特征,从而降低隐藏的冗余和噪音。这使得可以有效地提取补充方式来提取最迟到的特征融合的最有价值和互补的信息。两个代表性RS基准数据集的广泛实验证明了多模态土地覆盖分类的多模型的有效性,鲁棒性和优越性。
translated by 谷歌翻译
具有潜在变量的深生成模型已被最近用于从多模式数据中学习关节表示和生成过程。但是,这两种学习机制可能相互冲突,表示形式无法嵌入有关数据模式的信息。本研究研究了所有模式和类标签可用于模型培训的现实情况,但是缺少下游任务所需的一些方式和标签。在这种情况下,我们表明,变异下限限制了联合表示和缺失模式之间的相互信息。为了抵消这些问题,我们引入了一种新型的条件多模式判别模型,该模型使用信息性的先验分布并优化了无可能的无可能目标函数,该目标函数可在联合表示和缺失模态之间最大化相互信息。广泛的实验表明了我们提出的模型的好处,这是经验结果表明,我们的模型实现了最新的结果,从而导致了代表性问题,例如下游分类,声音反演和注释产生。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译